本プロジェクトは、情報検索システムの検索性能評価の基盤を強化し、研 究を促進するために、学術情報センターが構築してきたデータベースの一部を 利用して、日本語情報検索システム評価用の大規模 テストコレクション を構築します。背景として、以下の状況があります。
情報検索研究では、新しく提案される検索手法 は大規模なテストコレクションを用いて検索性能を評価しない かぎり国際的な研究コミュニ ティに受け入れられることが困難です。また、情報検索は、言語に依存した処理を多 く含むため、日本語情報検索研究には、日本語の大規模テストコレクションが必 要です。 TRECコレクション をはじめ、欧米諸国語、中国語、韓国語の大規模テストコレクションがありますが、 日本語では、情報処理学会のBMIRワーキンググループが構築した新聞記事を用いたテストコレクションBMIR-J2のみで、 記事の種類、数量ともに一層の拡充が必要です。
近年、電子文書の増大、インタネットの普及により情報検索技術の重要性が 高まっています。 実用化が可能な検索技術の研究開発と、研究成果の実用シス テムへの技術移転を促進するためには、 実用システムに匹敵する規模のデータベースを使用した、 大規模テストコレクションが必要です。
国際的ネットワーク環境下では、多言語検索、および、検索システムへの問合 せと異なる言語の文書も検索可能な「言語横断検索」の要請が強く [3] 、その研究に 資するテストコレクションが必要です。
我が国では、 新聞記事 データの研究目的の公開が進んでいますが、学術文書は、 情報検索における重要性にも関わらず、研究目的でデータを利用することが困 難でした。文書や用語の特性は対象文書の種類によって異なるため、学術文書 についても、大規模な実験用データベースが必要です。
日本語は、欧米諸国語とは異なり、語と語のあいだに空白などの明示的な区切 りがないため、データベースと検索質問からの検索に適した語を抽出するには、自然言語 処理技術が必要であり、その研究を進めるための基礎的データが必要です。 [2,4]
情報処理学会BMIRワーキンググループは、1998年3月に新聞記事を用いた 日本語情報検索システム評価用テストコレクションBMIR-J2を公開しました。その 情報検索研究への貢献は多大なものがありますが、諸般の事情から活動の継続を断念 せざるを得ませんでした。日本語テストコレクションを拡充するには、新たな構築の担い手が必要で す。
以上の背景をふまえ、このプロジェクトでは、日英対訳データを含む大規 模な情報検索システム評価用の標準的テストコレクションを構築し、研究利用目 的に限定して情報検索研究者に公開します。その目的は以下のようにまとめられます。
このプロジェクトは、以下の効果が期待されます。
このプロジェクトは、以下の方法によって、大規模なテストコレクションを構築します。
1. Kando, N. et al. "NTCIR : NACSIS Test Collection Project "[Poster] the 20th Annual Collquium of BCS-IRSG, March 25-27, 1997, Autrans, France [ps file] [html file]
2. Kageura, K. et al. "NACSIS Corpus Project for IR and Terminological Research". Natural Language Processing Pacific Rim Symposium '97, 2-5 December, 1997 at Phuket, Thailand, p. 493-496. ( ps file )
3. Kando, N. "Cross-Linguistic Scholarly Information Transfer and Database Service in Japan". Panel on "Multilingual Database" at the 1997 Anuual Meeting of the American Society for Information Science, 1-5 November, 1997 at Washington,D.C, U.S.A.
4. Koyama, T. et al. "The Construction of a Lexically Motivated Corpus : The Problem with Defining Lexical Units." [to appear in] The First International Conference on Language Resources and Evaluation. May, 1998, Granada, Spain. (please see http://cerec.ugr.es/~rubio/elra.html)
プロジェクト・メンバー;研究開発部:
参考- 学会発表データベース